We summarize our TRECVID 2022 Ad-hoc Video Search (AVS) experiments. Our solution is built with two new techniques, namely Lightweight Attentional Feature Fusion (LAFF) for combining diverse visual / textual features and Bidirectional Negation Learning (BNL) for addressing queries that contain negation cues. In particular, LAFF performs feature fusion at both early and late stages and at both text and video ends to exploit diverse (off-the-shelf) features. Compared to multi-head self attention, LAFF is much more compact yet more effective. Its attentional weights can also be used for selecting fewer features, with the retrieval performance mostly preserved. BNL trains a negation-aware video retrieval model by minimizing a bidirectionally constrained loss per triplet, where a triplet consists of a given training video, its original description and a partially negated description. For video feature extraction, we use pre-trained CLIP, BLIP, BEiT, ResNeXt-101 and irCSN. As for text features, we adopt bag-of-words, word2vec, CLIP and BLIP. Our training data consists of MSR-VTT, TGIF and VATEX that were used in our previous participation. In addition, we automatically caption the V3C1 collection for pre-training. The 2022 edition of the TRECVID benchmark has again been a fruitful participation for the RUCMM team. Our best run, with an infAP of 0.262, is ranked at the second place teamwise.
translated by 谷歌翻译
Artificial Intelligence (AI) is having a tremendous impact across most areas of science. Applications of AI in healthcare have the potential to improve our ability to detect, diagnose, prognose, and intervene on human disease. For AI models to be used clinically, they need to be made safe, reproducible and robust, and the underlying software framework must be aware of the particularities (e.g. geometry, physiology, physics) of medical data being processed. This work introduces MONAI, a freely available, community-supported, and consortium-led PyTorch-based framework for deep learning in healthcare. MONAI extends PyTorch to support medical data, with a particular focus on imaging, and provide purpose-specific AI model architectures, transformations and utilities that streamline the development and deployment of medical AI models. MONAI follows best practices for software-development, providing an easy-to-use, robust, well-documented, and well-tested software framework. MONAI preserves the simple, additive, and compositional approach of its underlying PyTorch libraries. MONAI is being used by and receiving contributions from research, clinical and industrial teams from around the world, who are pursuing applications spanning nearly every aspect of healthcare.
translated by 谷歌翻译
Federated learning (FL) enables the building of robust and generalizable AI models by leveraging diverse datasets from multiple collaborators without centralizing the data. We created NVIDIA FLARE as an open-source software development kit (SDK) to make it easier for data scientists to use FL in their research and real-world applications. The SDK includes solutions for state-of-the-art FL algorithms and federated machine learning approaches, which facilitate building workflows for distributed learning across enterprises and enable platform developers to create a secure, privacy-preserving offering for multiparty collaboration utilizing homomorphic encryption or differential privacy. The SDK is a lightweight, flexible, and scalable Python package, and allows researchers to bring their data science workflows implemented in any training libraries (PyTorch, TensorFlow, XGBoost, or even NumPy) and apply them in real-world FL settings. This paper introduces the key design principles of FLARE and illustrates some use cases (e.g., COVID analysis) with customizable FL workflows that implement different privacy-preserving algorithms. Code is available at https://github.com/NVIDIA/NVFlare.
translated by 谷歌翻译
道路网络和轨迹表示学习对于交通系统至关重要,因为学习的表示形式可以直接用于各种下游任务(例如,交通速度推理和旅行时间估计)。但是,大多数现有方法仅在同一规模内对比,即分别处理道路网络和轨迹,这些方法忽略了有价值的相互关系。在本文中,我们旨在提出一个统一的框架,该框架共同学习道路网络和轨迹表示端到端。我们为公路对比度和轨迹 - 轨迹对比度分别设计了特定领域的增强功能,即路段及其上下文邻居和轨迹分别替换和丢弃了替代方案。最重要的是,我们进一步引入了路面跨尺度对比,与最大化总互信息桥接了这两个尺度。与仅在形成对比的图形及其归属节点上的现有跨尺度对比度学习方法不同,路段和轨迹之间的对比是通过新颖的正面抽样和适应性加权策略精心量身定制的。我们基于两个实际数据集进行了审慎的实验,这些数据集具有四个下游任务,证明了性能和有效性的提高。该代码可在https://github.com/mzy94/jclrnt上找到。
translated by 谷歌翻译
已经提出了分裂学习(SL)以分散的方式训练深度学习模型。对于具有垂直数据分配的分散医疗保健应用,SL可以有益,因为它允许具有互补功能或图像的机构为一组共享的患者共同开发更强大且可推广的模型。在这项工作中,我们提出了“ split-u-net”,并成功地将SL应用于协作生物医学图像分割。但是,SL需要交换中间激活图和梯度,以允许跨不同特征空间的训练模型,这可能会泄漏数据并提高隐私问题。因此,我们还量化了用于生物医学图像分割的常见SL情况下的数据泄漏量,并通过应用适当的防御策略提供了抵消此类泄漏的方法。
translated by 谷歌翻译
否定是一种常见的语言技能,使人类能够表达我们不想要的东西。自然,人们可能会期望视频检索能够以否定的方式支持自然语言查询,例如,发现坐在地板上而不是和狗一起玩的孩子的照片。但是,最先进的基于深度学习的视频检索模型缺乏这种能力,因为它们通常在视频说明数据集中受过培训,例如MSR-VTT和VATEX,而缺乏否定的描述。他们的检索结果基本上忽略了示例查询中的否定器,错误地返回的视频显示了孩子们玩狗。本文介绍了关于学习视频检索中否定的第一个研究,并做出如下的贡献。通过重新修复两个现有数据集(MSR-VTT和VATEX),我们提出了一个新的评估协议,以进行否定。我们建议一种基于学习的方法来培训否定视频检索模型。关键的想法是首先通过部分否定其原始标题来为特定的培训视频构造软性标题,然后对三胞胎进行双向约束损失。这种辅助损失将重量添加到标准检索损失中。重新组合基准的实验表明,通过拟议的方法重新训练剪辑(对比语言图像预训练)模型清楚地提高了其用否定处理查询的能力。此外,原始基准测试的模型性能也得到了改进。
translated by 谷歌翻译
常规的自我监督单眼深度预测方法基于静态环境假设,这导致由于对象运动引入的不匹配和遮挡问题而导致动态场景的准确性降解。现有的以动态对象为中心的方法仅部分解决了训练损失级别的不匹配问题。在本文中,我们因此提出了一种新型的多帧单眼预测方法,以在预测和监督损失水平上解决这些问题。我们的方法称为DynamicDepth,是一个新框架,该框架是通过自我监督周期一致的学习方案训练的。提出了动态对象运动解开(DOMD)模块以解开对象运动以解决不匹配问题。此外,新颖的闭塞成本量和重新投射损失旨在减轻对象运动的闭塞作用。对CityScapes和Kitti数据集进行的广泛分析和实验表明,我们的方法显着优于最先进的单眼深度预测方法,尤其是在动态对象的领域。代码可从https://github.com/autoailab/dynamicdepth获得
translated by 谷歌翻译
联合学习(FL)是一种分布式机器学习技术,可以在避免明确的数据共享的同时进行协作模型培训。 FL算法的固有保护属性使其对医疗领域特别有吸引力。但是,如果有异质的客户数据分布,则标准FL方法是不稳定的,需要密集的超参数调整以实现最佳性能。常规的超参数优化算法在现实世界中的FL应用中是不切实际的,因为它们涉及大量的培训试验,而计算预算有限,这些试验通常是不起作用的。在这项工作中,我们提出了一种有效的增强学习(RL)的联合次数超参数优化算法,称为自动FEDRL,其中在线RL代理可以根据当前的培训进度动态调整每个客户的超参数。进行了广泛的实验以研究不同的搜索策略和RL代理。该方法的有效性在CIFAR-10数据集的异质数据分配以及两个现实世界中的医学图像分割数据集上进行了验证,用于胸部CT中的COVID-19变病变分段,腹部CT中的胰腺细分。
translated by 谷歌翻译
在本文中,我们在通过文本的视频检索的新上下文中重新访问\ emph {特征融合},是一个旧的主题。与以前的研究不同,仅在一端考虑特征融合,让它成为视频或文本,我们的目标是在统一框架内两端的特征融合。我们假设优化特征的凸组合是优选通过计算重大的多头自我关注来建模它们的相关性。因此,我们提出了轻质的注意力特征融合(Laff)。Laff在早期和晚期阶段和视频和文本的结尾执行功能融合,使其成为利用不同(现成)功能的强大方法。在四个公共数据集中进行广泛的实验,即MSR-VTT,MSVD,TGIF,Vatex和大规模的Trecvid AVS基准评估(2016-2020)显示了Laff的可行性。此外,LAFF实现了实现的,使其对现实世界部署的吸引力。
translated by 谷歌翻译
自我监督的单眼深度预测提供了一种经济有效的解决方案,以获得每个像素的3D位置。然而,现有方法通常会导致不满意的准确性,这对于自治机器人至关重要。在本文中,我们提出了一种新的两级网络,通过利用低成本稀疏(例如4梁)LIDAR来推进自我监督单眼密集深度学习。与使用稀疏激光雷达的现有方法不同,主要以耗时的迭代后处理,我们的模型保留单眼图像特征和稀疏的LIDAR功能,以预测初始深度图。然后,有效的前馈细化网络进一步设计为校正伪3D空间中这些初始深度图中的错误,其具有实时性能。广泛的实验表明,我们所提出的模型显着优于所有最先进的自我监控方法,以及基于稀疏的激光器的方法,以及对自我监督单眼深度预测和完成任务。通过精确的密集深度预测,我们的模型优于基于最先进的稀疏激光雷达的方法(伪LIDAR ++)在Kitti排行榜上下游任务单眼3D对象检测超过68%。代码可在https://github.com/autoailab/fusiondepth获得
translated by 谷歌翻译